#rendimiento conjunto

Optimización de políticas Pass@K: Resolviendo problemas más difíciles de RL

Aprende cómo PKPO transforma la recompensa para optimizar conjuntos de muestras, resolviendo problemas de RL más difíciles con mejor exploración.